7. 数据是后训练最重要的基石
在大模型后训练(Post-training)中:
数据质量,往往比模型规模更重要。
很多时候:
- 一个小模型 + 高质量数据
- 可以超过
- 一个大模型 + 低质量数据
因此:
数据是决定模型能力上限的核心因素之一。
1. 为什么数据如此重要
后训练本质上是:
让模型学习“什么是好的回答”。
而模型学习的来源:
就是训练数据。
因此:
- 数据决定模型行为
- 数据决定模型风格
- 数据决定模型推理方式
- 数据决定模型安全性
2. 微调(SFT)训练数据的结构
在监督微调(SFT)中,
训练数据通常包括:
Input → Think → Output
即:
- 输入(Input)
- 推理过程(Think / CoT)
- 最终答案(Output)
3. SFT 数据示例
input:
小明有3个苹果,又买了2个,现在有几个苹果?
output:
<think>
开始有3个苹果,
后来又买了2个,
所以 3 + 2 = 5
</think>
5
这种数据会训练模型:
- 如何思考
- 如何推理
- 如何回答
4. 强化学习(RL)训练数据的结构
RL 数据与 SFT 不同。
它不仅需要:
- 问题
- 回答
还需要:
评价信息(Reward)。
5. RL 数据示例
例如:
input:
小明有3个苹果,又买了2个,现在有几个苹果?
模型生成:
output:
5
然后 Grader 给出:
reward:+1
6. Preference Data(偏好数据)
RL 中更常见的是:
好回答 vs 坏回答
例如:
好回答
回答A:
<think>
3 + 2 = 5
</think>
5
差回答
回答B:
7
偏好标注
A > B
模型会学习:
哪种回答更符合人类偏好。
7. 数据集划分(Dataset Split)
训练中,通常会将数据拆分为:
| 数据集 | 作用 |
|---|---|
| Train Set(训练集) | 用于训练模型 |
| Validation Set(验证集) | 调参与中间评估 |
| Test Set(测试集) | 最终评估模型能力 |
8. 训练集(Train Set)
作用:
让模型学习。
模型会不断看到这些数据。
因此:
模型可能记住训练集。
9. 验证集(Validation Set)
也叫:
- Dev Set
- Cross Validation Set
作用:
- 调参
- 选择最佳模型
- 判断是否过拟合
例如:
- 学习率是否合理
- 模型是否训练过头
10. 测试集(Test Set)
测试集最重要的原则:
模型绝对不能见过。
因为测试集的目标是:
真实评估泛化能力。
11. RL 中的数据划分
强化学习同样需要:
- RL Train
- RL Validation
- RL Test
原因是:
RL 模型可能“骗奖励”。
12. Reward Hacking(奖励作弊)
例如:
模型可能发现:
只要重复某些词就能得高分。
而不是真正提升能力。
因此:
必须使用独立 RL-Test 数据集。
用于检测:
- 模型是否真正变强
- 是否只是利用奖励漏洞
13. 为什么最终评估必须使用“未见数据”
真正重要的不是:
模型记住了什么。
而是:
模型能否泛化。
因此最终评估应该使用:
- 未见问题
- 新场景
- 新任务
否则:
测试结果可能是假的高分。
14. 数据去重(Deduplication)
数据去重(Dedup)非常重要。
因为重复数据会导致:
- 过拟合
- 数据污染
- 虚假高分
- 泛化下降
15. 数据泄漏(Data Leakage)
如果:
- 测试集内容
- 出现在训练集中
模型可能只是:
“背答案”。
这会严重污染评估结果。
因此:
Train / Test 去重非常关键。
16. 按时间划分数据集
一个非常有效的方法是:
按时间切分数据。
例如:
| 时间 | 用途 |
|---|---|
| 2023 数据 | Train |
| 2024 数据 | Validation |
| 2025 数据 | Test |
这样可以更真实模拟:
模型面对未来未知数据的能力。
17. 为什么数据准备如此困难
现实中:
大部分生成的数据其实没有价值。
甚至会:
降低模型性能。
18. 数据质量问题
例如:
- 错误答案
- 低质量推理
- 重复样本
- 格式混乱
- 虚假 CoT
- AI 自己编造的数据
这些都会污染模型。
19. 一个真实现象
很多时候:
100份数据里,
真正有价值的可能只有1份。
剩下:
99%
可能都在降低模型质量。
因此:
数据过滤(Data Filtering)非常重要。
20. 为什么测试集尤其重要
很多团队的问题不是:
“模型训练不好”。
而是:
“评估错了”。
如果测试集质量差:
- 无法发现模型问题
- 无法判断模型是否真正提升
- 无法检测奖励作弊
最终:
会错误优化模型方向。
21. 高质量数据的核心特点
好的训练数据通常具备:
| 特点 | 说明 |
|---|---|
| 正确 | 答案可靠 |
| 多样 | 覆盖不同场景 |
| 高质量推理 | CoT合理 |
| 格式统一 | 易训练 |
| 无污染 | 无测试泄漏 |
| 高难度 | 能提升能力 |
22. 一句话总结
SFT:
模型会变成训练数据的样子。
RL:
模型会变成奖励机制鼓励的样子。
最终:
数据质量决定模型上限,
测试质量决定你是否真的知道模型变强了。